Speech Enhancement Algorithm Based on a Convolutional Neural Network Reconstruction of the Temporal Envelope of Speech in Noisy Environments

نویسندگان

چکیده

Temporal modulation processing is a promising technique for improving the intelligibility and quality of speech in noise. We propose enhancement algorithm that constructs temporal envelope (TEV) time-frequency domain by means an embedded convolutional neural network (CNN). To accomplish this, input signals are divided into sixteen parallel frequency bands (subbands) with bandwidths approximating 1.5 times auditory filters. The corrupted TEVs each subband extracted then fed to 1-dimensional CNN (1-D CNN) model restore distorted method evaluated using 2,700 words from nine different talkers, which mixed speech-spectrum shaped random noise (SSN), babble noise, at signal-to-noise ratios. Short-time Objective Intelligibility (STOI) Perceptual Evaluation Speech Quality (PESQ) metrics used evaluate performance 1-D algorithm. Results suggest improves STOI scores on average 27% 34% SSN respectively, PESQ 19% 18%, compared unprocessed speech. also shown outperform conventional TEV-based

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

the effects of speech rate,prosodic features, and blurred speech on iranian efl learners listening comprehension

کلید واژه ها به زبان انگلیسی: effect of speech rate on listening comprehension, blurred speech,segmental and suprasegmental features,authentic speech,intelligibility, discrimination, omission, assimilation چکیده: سرعت مطالب شنیداری در کلام پیوسته بطور کلی همواره کابوسی بوده برای یادگیرنده های زبان دوم و بالاخص برای شنوندگان ایرانی. علی رغم عقل سلیم که کلام با سرعت کندتری فعالیتهای درک مطلب شن...

15 صفحه اول

the analysis of the role of the speech acts theory in translating and dubbing hollywood films

از محوری ترین اثراتی که یک فیلم سینمایی ایجاد می کند دیالوگ هایی است که هنرپیش گان فیلم میگویند. به زعم یک فیلم ساز, یک شیوه متأثر نمودن مخاطب از اثر منظوره نیروی گفتارهای گوینده, مثل نیروی عاطفی, ترس آور, غم انگیز, هیجان انگیز و غیره, است. این مطالعه به بررسی این مسأله مبادرت کرده است که آیا نیروی فراگفتاری هنرپیش گان به مثابه ی اعمال گفتاری در پنج فیلم هالیوودی در نسخه های دوبله شده باز تولید...

15 صفحه اول

A Convolutional Neural Network based on Adaptive Pooling for Classification of Noisy Images

Convolutional neural network is one of the effective methods for classifying images that performs learning using convolutional, pooling and fully-connected layers. All kinds of noise disrupt the operation of this network. Noise images reduce classification accuracy and increase convolutional neural network training time. Noise is an unwanted signal that destroys the original signal. Noise chang...

متن کامل

a gender-based pragmatic analysis of the use of english compliment responses by iraqi efl students:a speech act perspective

تعارفات کنش های گفتاری هستند که افراد در زندگی روزمر? خود به منظور برقراری دوستی یا تداوم روابط مسالمت آمیز به کار می برند. ساز و کار تعارف مختص زبان انگلیسی یا هر زبان دیگری نیست و پدیده ای است جهانی و در همه زبانها حضور دارد. تفاوتی که از این نظر در زبانها و فرهنگ ها وجود دارد مربوط به پاسخ به این کنش گفتاری در گفتمان است. این مطالعه به بررسی تنوع پاسخ های انگلیسی و عربی به کنش گفتاری تعارف د...

the effect of using visual aids on the development of speech act of disagreement among iranian intermediate efl learners

abstract the present study tried to investigate the effect of visual aids (films) on the development of the speech act of disagreement among iranian efl intermediate learners. to this end, the researcher selected 40 homogeneous intermediate learners based on their scores on oxford placement test. .the subjects then divided into control group and experimental group. both classes were tested by ...

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ژورنال

عنوان ژورنال: IEEE Access

سال: 2023

ISSN: ['2169-3536']

DOI: https://doi.org/10.1109/access.2023.3236242